개요 및 아키텍처 진화 지도
AlexNet의 기초적인 성공에서 시작하여 초심층의 합성곱 신경망(CNN). 이 전환은 학습 안정성을 유지하면서 극단적인 깊이를 처리하기 위해 획기적인 아키텍처 혁신이 필요했음을 의미합니다. 우리는 세 가지 중요한 아키텍처—VGG, GoogLeNet (Inception), 그리고 ResNet—각각의 아키텍처가 스케일링 문제의 다른 측면을 어떻게 해결했는지 이해함으로써, 이 수업 후반부에 정교한 모델 해석의 기초를 마련합니다.
1. 구조적 단순성: VGG
VGG는 매우 균일하고 작은 커널 크기를 사용해 깊이를 극대화하는 새로운 패러다임을 제안했습니다 (특히 3x3 합성곱 필터스택된 방식). 계산적으로 비용이 높지만, 구조적 균일성이 가장 낮은 아키텍처 변화로 인해 얻어진 원시적인 깊이가 성능 향상의 주요 원동력임을 입증했으며, 작고 효율적인 수용장(수집 영역)의 중요성을 확립했습니다.
2. 계산 효율성: GoogLeNet (Inception)
GoogLeNet는 계산 비용이 높은 VGG에 대응하기 위해 효율성과 다중 규모 특징 추출을 우선시했습니다. 핵심 혁신은 Inception 모듈이며, 병렬 합성곱(1x1, 3x3, 5x5)과 풀링을 수행합니다. 특히 중요한 점은 1x1 합성곱을 버블넥(병목)으로 활용비용이 큰 연산 이전에 파라미터 수와 계산 복잡성을 크게 줄입니다.
주요 공학적 도전 과제
질문 1
어느 아키텍처가 대부분 3x3 필터를 사용해 구조적 균일성을 강조하여 깊이를 극대화했습니까?
질문 2
1x1 합성곱은 Inception 모듈에서 어떤 본질적인 목적을 위해 주로 사용됩니까?
핵심 도전 과제: 소실되는 기울기
최적화를 위한 공학적 해결책
ResNet의 식별 매핑이 Improved Weight Initialization 또는 배치 정규화와 같은 기술을 넘어서 어떻게 소실되는 기울기 문제를 근본적으로 해결하는지 설명하세요.
Q1
스킵 연결이 역전파 중 기울기 흐름을 어떻게 안정화시키는지 메커니즘을 설명하세요.
해답:
스킵 연결은 출력에 식별 항($+x$)을 도입하여 미분 경로에 가산 항($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$)을 생성합니다. 이 항은 기울기 신호가 뒤로 흐르는 직결 경로를 보장하며, 잔차 함수 $F(x)$를 통과하는 기울기가 얼마나 작아지든 상관없이 상위 계층의 가중치가 0이 아닌 유용한 기울기 신호를 받도록 보장합니다.
스킵 연결은 출력에 식별 항($+x$)을 도입하여 미분 경로에 가산 항($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$)을 생성합니다. 이 항은 기울기 신호가 뒤로 흐르는 직결 경로를 보장하며, 잔차 함수 $F(x)$를 통과하는 기울기가 얼마나 작아지든 상관없이 상위 계층의 가중치가 0이 아닌 유용한 기울기 신호를 받도록 보장합니다.